【点】模型选择标准：AIC与BIC

2023-07-24 04:29| 来源: 网络整理| 查看: 265

数据少，模型复杂，过拟合

数据多，训练得好，过拟合

需要标准来平衡，除了常见的正则化，还有其他标准。

1、赤池信息准则（Akaike Information Criterion，AIC）AIC由日本统计学家赤池弘次在1974年提出，它建立在熵的概念上，提供了权衡估计模型复杂度和拟合数据优良性的标准。

通常情况下，AIC = 2k-2ln(L)一组模型中选择最佳模型时，通常选择AIC最小的模型。

k是模型参数个数，L是似然函数。当两个模型之间存在较大差异时，模型差异主要体现在L；当模型相近时，模型差异主要体现在参数个数上。

一般而言，当模型复杂度提高（k增大）时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。即模型参数为惩罚项，控制模型复杂程度在合理范围内。

2、贝叶斯信息准则（Bayesian Information Criterion，BIC）

通常情况下，BIC = k*ln(n) -2ln(L)

k为模型参数个数，n为样本数量，L为似然函数。BIC的惩罚项比AIC的大，考虑了样本数量，可以有效防止因样本量大而导致的过拟合。其次，BIC能够防止n较少时，k过高。

R的实现：

AIC：

packages：My.stepwise、AICcmodavg

第二个包比较复杂，可以自定义模型。

第一个包比较简单，但内置了生存分析：My.stepwise.coxph(Time,Status,variable.list,data)

【本文地址】

公司简介

联系我们